
DeepSeek 日入 409 万,但“大厂平替”们仍深陷亏损泥潭
DeepSeek 日入 409 万,但“大厂平替”们仍深陷亏损泥潭AI 搜索加广告,你能接受吗?
AI 搜索加广告,你能接受吗?
GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。
原来,大型推理模型(Large Reasoning Model,LRM)像人一样,在「用脑过度」也会崩溃,进而行动能力下降。
3月1日,潞晨科技官微发布了两则消息。先是宣布:“尊敬的用户,潞晨云将在一周后停止提供DeepSeek API服务,请尽快用完您的余额。如果没用完,我们全额退款。”后又发布消息:“感谢网友的热心提醒,Colossal-AI此前发布对DeepSeek-R1(671B)模型的LoRA微调,在参数加载过程中因参数名称不匹配的Bug导致Loss异常,已在GitHub线上修复。”
DeepSeek开源AI引爆全民应用潮!飞书多维表格成为最佳入门级方案,如今亚朵星球、茶百道等纷纷接入,让团队如虎添翼显著提升效率。
AI越来越便宜,这是好事。
风险投资行业中,古典 VC 在科技创新浪潮中捕捉机会追求胜率,讲究品牌效应、二八原则和师徒传承。过去几年,VC 行业集体丧失贝塔,无法抓住阿尔法的 VC 已经被汰换,传统 VC 模式的弊端也逐渐暴露。VC 模式的换代迎来了 Deepseek 时刻。
DeepSeek开源周的最后一天,迎来的是支撑其V3/R1模型全生命周期数据访问需求的核心基础设施 — Fire-Flyer File System(3FS) 和构建于其上的Smallpond数据处理框架。
字节跳动旗下悟空浏览器已正式接入DeepSeek R1模型。
第四天,DeepSee发布包括三个主要项目: DualPipe- 一种用于 V3/R1 训练的双向流水线并行算法,实现计算和通信完全重叠; EPLB(Expert Parallelism Load Balancer) - 专为 V3/R1 设计的专家并行负载均衡器; Profile-data- 分析 V3/R1 中计算与通信重叠的性能数据集。